Scala Spark - 程序员宅基地

什么是Spark，spark Core，Spark SQL，Scala概述，Scala运算符，程序流程控制，Scala循环，Scala集合，集合...

在Spark基础-实验列表下，单击Spark基础课程实验一：Spark简介右侧的【开始实验】按钮，具体如下图红色圈出部分：自动登录到私有云集群操作环境下，具体如下图所示：提升执行性能Spark SQL在Spark2.0 可以执行所有99...

一文入门Scala(学习Spark必备)

标签： scala spark 学习

本文主要介绍了Scala基本语法和Scala中函数式编程相关内容

hadoop scala spark 例子项目，运行了单机wordcount

标签： hadoop scala spark maven

hadoop scala spark 例子项目，运行了单机wordcount

Spark Scala大数据编程实例

标签： spark 大数据 hadoop

初步介绍scala，下载安装配置spark和scala，运行spark scala版本实例

第10章 Spark

标签：大数据

•容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过 Spark Shell进行交互式编程 •通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件 •运行模式多样：可运行...

scala spark 创建DataFrame的五种方式

标签： scala spark dataframe

scala spark 创建DataFrame的多种方式 1. 通过RDD[Row]和StructType创建 import org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.sql.types.{IntegerType, String...

scala spark 连接 redis

标签： scala spark redis

GitHub - RedisLabs/spark-redis: A connector for Spark that allows reading and writing to/from Redis cluster 大家给个星星o pom下载 ...

scala spark df 动态过滤fliter

标签： scala spark big data

how to filter out a null value from spark dataframe scala> df.show() +----+---+--------+ | age| id| name| +----+---+--------+ |null| 1| Michael| | 30| 1| Tom| | 19| 2| Justin| +----+---+--------+ ...

Scala Spark Bindings.pdf

标签： scala spark binding 大数据

此电子版文档为Scala Spark Bindings，格式为pdf。英文超清晰版。

scala spark读取大文件csv太慢以及优化方案。

标签： scala spark优化 spark读取大文件csv优化 read.RDD优化

最近的业务场景中，spark要读取 1个30G的 csv文件，生成RDD后做运算，光这一个 parse 就用了1个半小时，太慢了，后来请大佬帮我优化，我们统计时间发现，spark 读取这个csv 竟然用了 30分钟，太慢了。而且后面跑...

scala Spark 读取hive数据

import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} object SparkOperaterHive { def main(args: Array[String]) { val sparkConf: SparkConf = new SparkConf()....

安装SCALA SPARK

标签：大数据 spark scala

tar -xvf scala.tar.gz -C /etc/hadoop 修改文件名 mv sacla~ sacla 配置环境变量 vim /etc/profile export SCALA_HOME=/etc/hadoop/scala export PATH=$PATH:$PATH:SACLA_HOME/bin 刷新 source /etc/...

gg-interview-challenge：（采访）ScalaSpark中的GG采访挑战

标签： json logstash scala spark apache-spark parsing regex sparksql ParsingScala

gg-interview-challenge：（采访）ScalaSpark中的GG采访挑战

scala spark big data analytics azw3

标签： azw3 scala spark

scala spark的入门数据，英文版的内容，还是比较好懂的 kindle的azw3格式

scala spark big data analytics

标签： scala spark big data

scala spark的入门数据，蛮不错的内容，英文版的内容，比较易懂

SELECT PERCENTILE(orders, 0.5) OVER (PARTITION BY deal_id, type) as per50, PERCENTILE(orders, 0.25) OVER (PARTITION BY deal_id, type) as per25, PERCENTILE(orders, 0.75) OVER (PARTITION BY deal_id, ...

Scala Spark报错 task not serializable的解决办法

标签： spark

今天在写spark程序时，遇到task not serializable的报错，提示task未进行序列化。在正常spark程序在执行时会进行task序列化，当一些函数里面有外部变量时，不会序列化外部变量，由此报错。上面报错的主要原因是在...

LiFT：LinkedIn Fairness Toolkit（LiFT）是一个ScalaSpark库，可以在大规模机器学习工作流程中测量公平性

标签： machine-learning scala spark linkedin fairness fairness-ai fairness-ml ScalaScala

LiFT：LinkedIn Fairness Toolkit（LiFT）是一个ScalaSpark库，可以在大规模机器学习工作流程中测量公平性

Scala Spark 中Map和Json字符串相互转换

标签： spark Scala map

1. Map转JsonString Map转Json的String，首先在pom中添加json4s-native的依赖，一般使用如下方式就可以得到结果 import org.json4s.jackson.JsonMethods._ object Test { def main(args: Array[String]): Unit ...

spark-timeSeries.rar_scala 时间序列_spark ARIMA_spark arima_spark 滑

标签： scala_时间序列 spark__arima spark_arima spark_滑动平均 spark_预测

采用ARIMA模型（自回归积分滑动平均模型）+三次指数平滑法(Holt-Winters)，用scala语言实现的在spark平台运行的分布式时间序列预测算法

scala spark 对hdfs文件的操作

Scala HDFS 前言自己有个需求，如题，需要获取HDFS路径下所有的文件名，然后根据文件名用Spark进行后续操作。想了一下用Spark好像不太容易获取到，还要递归的去获取子目录下的文件名，于是查了一下，最后用Hadoop...

Scala Spark pdf文档大合集，大数据就看这些

标签： Scala Spark spark hadoop hive

学习Spark技术相关文档，包括Scala由浅入深，及Spark详细介绍实践等文档，主要都是文字版，对大数据感兴趣的应该不会失望，包含Scala in Action; Learning Spark; Scala in Depth;Scala for the Impatient;Spark快速...

scala spark dataframe和rdd 获取分区个数及每个分区的内容

标签： spark scala dataframe

scala> // 构造测试数据源 scala> val df = spark.sparkContext.makeRDD(1.to(100), 4).toDF("id") df: org.apache.spark.sql.DataFrame = [id: int] scala> // 获取分区个数 scala> val partition_...

Jupyter notebook运行Spark+Scala教程

标签： Jupyter notebook Spark Scala

主要介绍了Jupyter notebook运行Spark+Scala教程，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

eclipse IDEA maven scala spark 搭建成功运行 sparkContext

标签： eclipse hadoop scala

整了好几天,把eclipse弄能用.. 期间报各种错,进度也被耽误了…archetype和pom部分引用他人的,可惜调试的太多,没有记录下作者,这里... Spark–>2.2.0IDE, eclipseEE + scalaIDE插件–>oxygen:pom有报错,但是可用 sc

Scala和Spark的介绍

标签： scala spark 开发语言

Spark最初由美国加州伯克利大学( UC Berkelcy)的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。

idea scala spark 开发环境搭建

标签： scala spark idea

1、安装jdk1.8、IDEA jdk和IDAE安装请自行百度 2、安装scala 下载地址：https://www.scala-lang.org/download/2.11.12.html ...下载解压到D:\jdk\scala-2.11.12，并配置环境...3、spark环境安装下载地址：ht...

Scala Spark SQL 将dataframe中某一列的所有值转化成list取出（包含列值为Seq(String)的情况）

标签： scala spark sql explode usage

很久没有更新博客了，因为最近工作确实也很忙，不过忙碌的工作也让我收获了很多新的知识，趁着忙碌的间隙，来记录一下自己的成长。这次的场景是：需要单独取出DataFrame中的某一列的所有值供Java程序使用。...

scala-spark-tutorial：詹姆斯的Apache Spark项目与Scala课程

标签： scala big-data apache-spark ScalaScala

scala-spark-tutorial：詹姆斯的Apache Spark项目与Scala课程

scala spark dataframe 时间加减

标签： scala spark 大数据

无

”Scala Spark“ 的搜索结果

什么是Spark，spark Core，Spark SQL，Scala概述，Scala运算符，程序流程控制，Scala循环，Scala集合，集合...

一文入门Scala(学习Spark必备)

hadoop scala spark 例子项目，运行了单机wordcount

Spark Scala大数据编程实例

第10章 Spark

scala spark 创建DataFrame的五种方式

scala spark 连接 redis

scala spark df 动态过滤fliter

Scala Spark Bindings.pdf

scala spark读取大文件csv太慢以及优化方案。

scala Spark 读取hive数据

安装SCALA SPARK

gg-interview-challenge：（采访）ScalaSpark中的GG采访挑战

scala spark big data analytics azw3

scala spark big data analytics

scala spark sql 获得分组后的分位点

Scala Spark报错 task not serializable的解决办法

LiFT：LinkedIn Fairness Toolkit（LiFT）是一个ScalaSpark库，可以在大规模机器学习工作流程中测量公平性

Scala Spark 中Map和Json字符串相互转换

spark-timeSeries.rar_scala 时间序列_spark ARIMA_spark arima_spark 滑

scala spark 对hdfs文件的操作

Scala Spark pdf文档大合集，大数据就看这些

scala spark dataframe和rdd 获取分区个数及每个分区的内容

Jupyter notebook运行Spark+Scala教程

eclipse IDEA maven scala spark 搭建成功运行 sparkContext

Scala和Spark的介绍

idea scala spark 开发环境搭建

Scala Spark SQL 将dataframe中某一列的所有值转化成list取出（包含列值为Seq(String)的情况）

scala-spark-tutorial：詹姆斯的Apache Spark项目与Scala课程

scala spark dataframe 时间加减

推荐文章